Google: T5Gemma 2 setzt auf Effizienz und multimodale Fähigkeiten

Google präsentiert die zweite Generation seiner T5Gemma-Reihe. Die Encoder-Decoder-Modelle wurden grundlegend überarbeitet und basieren jetzt auf der Architektur von Gemma 3. Dabei stehen drei Aspekte im Mittelpunkt: höhere Effizienz für den Einsatz auf lokalen Geräten, die Verarbeitung von Bildern zusätzlich zum Text und deutlich längere Kontextfenster.

Die Entwickler haben an der Struktur geschraubt, um mit weniger Parametern mehr rauszuholen. Zwei technische Kniffe machen den Unterschied. Zum einen sind die Embeddings zwischen Encoder und Decoder jetzt miteinander verbunden, was man als Tied Embeddings bezeichnet. Heißt: Das spart Speicher und erlaubt es, mehr Kapazität in kleinere Modelle zu packen. Zum anderen werden im Decoder Self-Attention und Cross-Attention in einer einzigen Schicht zusammengefasst. Diese Merged Attention macht die Architektur schlanker, verbessert die parallele Verarbeitung und beschleunigt die Inferenz, so Google.

Die Modelle kommen in drei Varianten auf den Markt. Die kleinste Version mit etwa 370 Millionen Parametern eignet sich für mobile Geräte und On-Device-Anwendungen. Dann wäre da noch die mittlere Größe mit rund 1,7 Milliarden Parametern, sie ist gedacht für schnelle Prototypen. Die größte Variante bringt es auf circa 7 Milliarden Parameter und kann komplexe Aufgaben stemmen. Die angegebenen Parameterzahlen beziehen sich dabei auf die Gesamtstruktur ohne den zusätzlichen Vision-Encoder.

Besonders ist hier einfach die multimodale Fähigkeit. Ein integrierter Vision-Encoder ermöglicht es den Modellen, nicht nur Text zu verstehen, sondern auch Bilder zu analysieren. Damit lassen sich Fragen zu Bildern beantworten und komplexere Aufgaben lösen, die auf visuellen Informationen basieren. Das Kontextfenster wurde auch massiv erweitert. Durch einen Mechanismus, der zwischen lokaler und globaler Attention umschaltet und aus Gemma 3 übernommen wurde, können die Modelle jetzt bis zu 128.000 Token verarbeiten. Dazu kommt eine breite Sprachunterstützung, die laut Google über 140 Sprachen abdeckt. Wer die Modelle ausprobieren möchte, findet sie auf Plattformen wie Hugging Face, Kaggle und Vertex AI.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Nordlicht, Ehemann und Vater. Technik-verliebt und lebt fürs Bloggen. Außerdem: Mail: benjamin@caschys.blog / Mastodon

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.